第 11 卷 第 4 期 


摘要 : 本 文 分 析 了 少数 民族 语言 机 器 条 


Information Technology Letter 


信息 技术 快报 


Vol.11 No.4 
Sep. 2013 


中 科 院 计算 所 的 
少数 民族 语言 机 器 翻译 研究 进展 


昌 雅 娟 刘 群 姜文 让 


中 


译 研究 的 背景 、 厂 


民族 语言 处 理 和 机 器 翻 记 


E 旋 


语言 的 分 析 和 


言 机 器 翻译 


翻译 建 模 ， 


血 的 研究 进 


3 
闹 


评测 的 情况 等 。 


究 现状 和 发 展 动态 ， 


介绍 了 中 科 院 计算 所 在 少数 


原 缺 乏 语 言 


的 知识 获取 和 翻 记 


长 ， 包括 维吾尔 语 ~ 


蒙古 语 、 藏 语 的 语言 处 理 基础 技术 ， 形 态 丰富 


织 全 国 


机 器 翻译 研讨 会 少数 民族 语 


关键 词 : 少数 民族 语言 ， 机 器 翻译 ， 形 态 丰富 语言 ， 机 器 翻译 评测 


ll 
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用 着 28 和 和 


族 之 间 的 交流 越 来 越 频繁 , 少数 民族 地 区 的 语言 隔 疼 问题 去 


国 的 少数 民族 人 口 有 1.06 亿 ， 
P，53 个 民族 有 自己 的 语言 ， 使 
本 民族 文字 ， 使 用 人 口 约 3000 多 万 由。 尽管 随 着 经 济 社会 的 不 


的 多 民族 国家 , 各 民族 之 间 的 语言 交流 还 存在 严 习 


占 全 国 


据 显 示 ， 新 疆 、 西 藏 仍然 有 70% 的 农 牧民 不 能 使 用 汉语 


总 人 口 的 8.41%。 少 数 民族 语种 、 文 种 多 ， 除 汉族 
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6000 多 万 ; 有 22 个 少数 民族 使 
断 发 展 ， 我 国 各 民 
依然 十 分 严重 。 教 育 部 的 调查 数 


普通 话 ， 贵 州 和 云南 有 70% 一 80% 


了 人 口 


的 人 口 不 能 使 用 普通 话 进行 交流 ， 新 疆 仍 然 有 30% 以 上 的 少数 民族 县 、 乡 镇 干部 不 会 说 普 
通话 ， 新 疆 南部 地 区 50%~80% 的 汉语 教师 的 普通 话 水 平 在 三 级 甲 等 以 下。 与 此 同时 ， 绝 
大 多 数 汉 族人 也 不 了 解 少 数 民族 语言 。 


少数 民族 语言 和 汉语 的 隔 头 不 仅 
结 和 社会 稳定 。 一 方面 ,由 
[ 业 、 农 业 、 贸 易 和 科技 等 方面 的 知识 和 信息 ， 也 难以 将 独 共 特 ; 
广 ， 从 而 在 根本 上 制约 了 少数 民族 地 区 的 发 展 。 另 一 方面 
区 的 贯彻 执行 造成 了 较 大 
主义 势力 的 器 惑 。 进 入 新 ] 
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题 的 最 有 力 手段 之 一 。 近 年 来 ， 机 器 翻译 技术 特别 
之 间 的 翻译 已 经 在 人 们 的 实际 4 


针 政 策 和 法 律 法 规 在 少数 民族 地 
情况 下 容易 受到 民族 分 裂 3 
严 少 数 民族 地 区 作为 突破 口 , 加 紧 玫 
成 严重 威胁 。 因 此 , 缓解 少数 民族 语言 和 汉语 的 隔 头 问 题 对 于 推动 少数 民族 地 
E 护 国家 统一 具有 重要 的 意义 。 


计算 机 将 一 种 语言 自动 翻译 成 男 外 一 种 语言 , 是 解决 这 种 语言 隔 


阻碍 了 少数 民族 地 区 的 对 外 交流 和 经 济 发 展 , 而 且 严重 


于 语言 交流 存在 障碍 ,少数 民族 地 区 难以 及 时 获取 
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我 国 的 少数 民族 语言 类 型 非常 丰富 。 从 语言 系 属 分 类 来 看 ， 汉 语 和 藏 语 同居 
属于 不 同 的 语族 : 汉语 属于 汉语 语族 ， 藏 语 属于 藏 缅 语族 。 维 吾 尔 语 
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区 和 谐 快速 发 


悦 问 
统计 机 器 翻译 技术 取得 了 巨大 的 进展 ， 
得 到 了 广泛 的 应 用 。 但 是 我 国 少数 民族 


j 译 研究 进展 还 比较 缓慢 ,还 没有 可 以 实用 的 系统 。 相 对 于 目前 研究 较为 
国 少数 民族 语言 和 汉语 之 问 的 机 器 和 


译 还 面临 和 


汉 藏 语系 ， 
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中 科 院 计算 所 的 少数 民族 语言 机 器 翻译 研究 进展 


泰语 系 的 突厥 语族 ， 蒙 古语 属于 阿尔 泰语 系 的 蒙古 语族 ， 等 等 。 从 语言 的 形态 分 类 来 看 ， 维 
吾 尔 语 、 蒙 古语 、 哈 萨 克 语 ， 朝 鲜 语 等 属于 形态 变化 非常 丰富 的 儿 着 语 ， 而 汉语 、 藏 语 、 巷 
语 、 壮 语 、 苗 语 等 属于 基本 没有 词 形变 化 的 孤立 语 。 可 以 看 到 ， 各 种 少数 民族 语言 属性 之 间 
的 跨度 是 非常 大 的 , 各 种 语言 特征 的 区 别 也 非常 明显 , 简单 地 采用 现成 的 经 典 研 究 思 路 在 处 
里 如 此 大 跨度 的 语言 翻译 时 很 难 取 得 很 好 的 效果 。 


- 语言 资源 缺乏 


现在 主流 的 统计 机 器 翻译 方法 需要 大 量 的 语言 资源 的 支持 。 如 果 平 行 语料库 规模 不 足够 
大 ， 统 计 机 器 翻译 效果 会 受到 很 大 的 影响 。 由 于 少数 民族 地 区 经 济 文化 发 展 普遍 相对 落后 ， 
可 以 收集 到 的 语言 资源 〈 词 典 和 双语 平行 语料库 等 ) 比 汉 语 少 得 多 。 在 这 种 情况 下 ， 单 纯 的 
统计 方法 可 能 很 难 取 得 理想 的 效果 , 需要 融入 多 种 翻译 策略 和 方法 , 最 大 程度 地 利用 各 种 形 
式 的 语言 学 知识 和 各 种 资源 以 提高 机 器 翻译 的 性 能 。 


- ”语言 处 理 基 础 技术 薄 纶 


相对 汉语 来 说 ， 一 些 少 数 民族 语言 的 处 理 技术 还 不 够 成 熟 。 一 些 基本 的 问题 ， 如 编码 转 
换 、 词 语 切 分 、 词 干 提取 、 词 性 标注 、 命 名 实体 识别 等 问题 还 没有 很 好 解决 ， 而 一 些 更 深层 
次 的 问题 ， 如 句法 分 析 等 ， 还 刚刚 起 步 ， 离 在 机 器 翻译 中 实际 应 用 都 还 有 较 大 距离 ， 需 要 进 
一 步 深 入 研究 。 


这 些 问 题 的 存在 使 得 目前 成 熟 的 一 些 机 器 翻译 方法 对 少数 民族 语言 和 汉语 之 间 的 翻译 
并 不 适用 。 实 际 上 ,我 国 少数 民族 语言 和 汉语 之 间 的 自动 翻译 技术 面临 很 多 复杂 的 科学 问题 ， 
如 形态 丰富 语言 的 机 器 翻译 , 资源 缺乏 语言 的 机 器 翻译 等 , 这 些 也 是 目前 统计 机 器 翻译 研究 
的 重要 内 容 。 


2 “少数 民族 语言 机 器 翻译 研究 现状 和 发 展 动态 
上 世纪 九 十 年 代 以 来 , 统计 机 器 翻译 技术 的 迅速 发 展 使 得 机 器 翻译 研究 和 应 用 领域 都 发 


© 生 了 巨大 的 变化 。 统 计 机 器 翻译 的 基本 原理 是 为 翻译 过 程 构建 概率 模型 ， 通 过 对 大 规模 平行 
S 文本 进行 统计 分 析 来 估计 模型 参数 ， 进 而 使 用 这 些 模型 参数 进行 翻译 。 从 1993 年 IBM 公司 


= 首次 提出 统计 机 器 翻译 模型 开始 ， 统 计 机 器 翻译 经 历 了 基于 词 的 模型 中 ， 基 于 短语 的 模型 外 
9 ,基于 句法 的 模型 等 几 个 主要 阶段 。 最 近 几 年 ,借助 语义 分 析 技 术 改 进 机 器 翻译 的 工作 


也 取得 了 一 定 的 进展 "*"。 统 计 机 器 翻译 技术 的 发 展 也 大 大 推动 了 机 器 翻译 的 应 用 。 继 从 
歌 (Google) 和 微软 之 后 ， 国 内 互联 网 公司 百度 、 网 易 有 道 等 也 相继 推出 了 基于 统计 技术 的 
在 线 翻译 服务 和 机 译 产品 。 机 器 翻译 在 人 们 日 常生 活 中 的 应 用 已 经 非常 普遍 。 统计 机 器 翻译 
技术 由 于 克服 了 传统 基于 规则 的 翻译 技术 中 人 类 专家 编写 知识 所 面临 的 主要 困难 , 而 且 容 易 
移植 到 新 的 领域 和 语种 上 ， 已 经 成 为 目前 机 器 翻译 学 术 界 和 产业 界 采 用 的 主流 技术 。 


相对 于 国际 上 统计 机 器 翻译 技术 的 快速 发 展 , 国内 少数 民族 语言 机 器 翻译 方面 的 研究 进 
展 比较 缓慢 ， 目 前 研究 主要 集中 在 维吾尔 语 (简称 维 语 )、 蒙 古语 (简称 蒙 语 )、 藏 语 等 少数 
几 种 语言 。 

在 维 语 方面 ， 汉 维 、 维 汉 机 器 辅助 翻译 技术 的 研究 起 步 于 上 世纪 90 年 代 中 期 。1995 年 ， 
新 疆 大 学 电子 工程 系 王世杰 等 人 的 国家 自然 科学 基金 项 目 “ 新 疆 民 汉语 :机 器 翻译 系统 基础 
研究 ”对 民 汉 机 器 翻译 进行 过 初步 尝试 [4。2004 年 ， 新 疆 大 学 哈 力 木 拉 提 等 人 的 新 疆 自治 


! 指 “ 民 族 语言 -汉语 ” 
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区 科技 厅 特 培 专项 “计算 机 汉 维 辅助 翻译 软件 ”为 维 汉 和 汉 维 机 器 翻译 搭建 了 初步 的 原型 系 
统 中 。2006 年 ， 新 疆 大 学 的 国家 自然 科学 基金 项 目 “ 面 向 汉 维 、 维 汉 机 器 翻译 的 双语 对 章 
语料库 和 短语 库 构建 技术 的 研究 ”， 为 汉 维 双向 机 器 翻译 的 研究 工作 做 了 良好 的 资源 和 技术 
准备 。 近 年 来 ， 新 疆 大 学 、 新 疆 师 范 大 学 等 单位 都 开展 了 大 规模 的 维 汉 双语 语料库 的 建设 工 
作 04 二 ， 并 初步 开展 了 基于 统计 的 维 汉 翻译 方法 研究 ne 站。 


在 蒙 语 方面 ， 蒙 古语 机 器 翻译 经 历 了 探索 不 同 翻译 方法 的 几 个 阶段 。 国 内 学 者 在 汉 蒙 机 
器 翻译 方面 曾经 做 过 基于 规则 的 研究 ”5 和 基于 实例 的 研究 5" ， 并 取得 一 定 成 果 。 近 年 来 ， 
也 有 一 些 学 者 在 进行 基于 统计 的 汉 蒙 机 器 翻译 的 探索 ”; 在 英 蒙 、 日 蒙 、 蒙 汉 机 器 翻译 方 
面 也 有 一 些 探索 性 的 研究 中。 对 于 蒙古 语 机 器 翻译 , 目前 以 蒙古 语 为 目标 语言 的 机 器 翻译 
研究 相对 较 多 ， 而 以 蒙古 语 为 源 语言 的 研究 则 较 少 。 


在 藏 语 方面 ， 自 上 个 世纪 90 年 代 开 始 ， 青 海 师范 大 学 李 延 福 教 授 等 首次 研究 汉 藏 机 器 
翻译 技术 , 先后 完成 “ 汉 藏 科技 机 器 翻译 系统 ”和 “ 汉 藏 公文 机 器 翻译 技术 ”两 项 国家 “863” 
计划 项 目 ， 实 现 了 汉 藏 科技 机 器 翻译 系统 和 基于 规则 的 汉 藏 公文 机 器 翻译 系统 的 原型 系统 。 
青海 师范 大 学 还 开展 了 实用 化 汉 藏 机 器 翻译 系统 的 研究 工作 ; 2003 年 以 来 ， 国 内 在 汉 藏 机 
器 翻译 技术 和 方法 上 做 了 一 些 理论 研究 和 技术 储备 工作 , 包括 动词 处 理 、 句 法 分 析 和 命名 实 
体 识 别 呈 的 及 藏 汉 平行 语料库 的 建设 7。 西北 民族 学 院 、 中 国 藏 学 研究 中 心 和 中 国 社会 科 
学 院 民族 研究 所 等 单位 在 藏 语 语料库 建设 以 及 利用 语料库 进行 藏 文 信息 处 理 研究 方面 也 都 
有 一 些 探 索 和 进展 扑 。 这 些 储备 工作 为 进一步 研究 翻译 技术 莫 定 了 一 定 的 末 础 。 


近年 来 ， 少 数 民族 语言 和 汉语 之 间 翻 译 研究 正 得 到 越 来 越 多 的 关注 与 重视 。 在 国家 自然 
科学 基金 委 和 科技 部 的 支持 下 , 中 科 院 合肥 智能 所 开展 了 针对 形态 丰富 语言 的 统计 机 器 翻译 
模型 构造 方法 研究 ， 在 汉 蒙 翻译 方面 取得 了 较 好 的 效果 。 北 京 理 工大 学 开展 了 基于 本 体 
的 多 策略 民 汉 机 器 翻译 研究 , 内 蒙古 师范 大 学 开展 了 融入 语言 学 知识 的 汉 蒙 统计 机 器 翻译 研 


人 铁人 稚 
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2011 年 第 七 届 全 国 机 器 翻译 研讨 会 (China Workshop on Machine Translation, CWMT) “机 
器 翻译 评测 首次 引入 了 少数 民族 语言 到 汉语 的 翻译 评测 项 目 , 进行 了 包括 维 语 、 蒙 语 、 藏 语 、 
哈萨克 语 以 及 柯尔克孜 语 5 种 民族 语言 到 汉语 的 翻译 评测 任务 ， 共 有 10 家 研究 机 构 和 大 学 
参加 了 该 次 评测 5 。 在 评测 中 我 们 发 现 ,参加 民族 语言 翻译 评测 项 目的 来 自 10 家 单位 的 24 
个 系统 ,包括 少数 民族 院 校 提交 的 系统 ， 全 部 采用 了 基于 统计 的 翻译 技术 。 可 以 看 出 统计 机 
器 翻译 技术 已 经 在 少数 民族 语言 机 器 翻译 研究 中 得 到 了 广泛 重视 。 但 是 ， 从 少数 民族 语言 和 
汉语 间 翻 译 的 特点 和 少数 民族 语言 处 理 研究 的 现状 看 , 直接 应 用 现 有 的 统计 技术 还 存在 很 多 
问题 。 首 先 ， 民 族 语言 和 汉语 间 的 语言 类 型 差别 大 ,用 同样 的 模型 解决 所 有 的 语言 对 之 间 的 
翻译 问题 是 行 不 通 的 。 主流 的 统计 翻译 模型 将 任何 一 种 语言 都 同等 对 待 , 对 于 形态 差异 较 大 
的 语言 对 《〈 如 维 语 、 蒙 语 等 黏着 语 和 汉语 )， 直 接 利 用 现 有 的 统计 机 器 翻译 模型 并 不 能 很 好 
地 描述 语言 对 间 的 差异 ， 翻 译 结果 也 不 理想 。 其 次 ， 民 汉 翻 译 资源 非常 缺乏 ， 单 纯 的 统计 方 
法 并 不 能 得 到 很 好 的 翻译 效果 。 事 实 上 规则 方法 和 统计 方法 各 有 优 缺 点 。 规 则 方法 更 容易 有 
效 利用 专家 知识 ， 对 于 比较 规律 的 语言 现象 ， 如 时 间 词 、 数 词 等 也 可 以 实现 高 精度 的 翻译 。 
在 资源 缺乏 的 情况 下 应 该 考虑 综合 利用 规则 和 统计 等 多 种 翻译 策略 。 此 外 , 一些 少 数 民族 语 
言 处 理 基 础 技术 还 很 薄弱 ,缺乏 高 性 能 的 词法 分 析 、 命 名 实体 识别 等 工具 ， 句 法 分 析 研 究 目 
前 还 都 很 不 成 熟 , 这 些 基础 技术 对 于 翻译 模型 的 选择 ,以 及 翻译 模型 的 训练 等 都 会 产生 很 大 


J 影响 。 


也 
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通过 以 上 分 析 , 我 们 认为 少数 民族 语言 机 器 翻译 研究 在 充分 借鉴 现 有 统计 机 器 翻译 研究 
方法 和 经 验 的 基础 上 ， 还 应 该 更 加 注意 结合 语言 本 身 的 特点 。 一 方面 ， 需 要 进一步 加 强 少数 
民族 语言 处 理 基 础 技术 研究 ， 以 更 好 地 支持 机 器 翻译 等 应 用 和 系统 开发 ; 另 一 方面 ， 需 要 研 
究 适合 少数 民族 语言 和 汉语 的 翻译 模型 和 方法 , 如 形态 丰富 语言 的 机 器 翻译 方法 、 面 向 资源 
缺乏 语言 的 机 器 翻译 方法 等 。 这 些 问 题 的 深入 研究 对 于 解决 很 多 小 语种 的 机 器 翻译 问题 , 进 
一 步 推动 机 器 翻译 研究 的 发 展 都 具有 重要 的 意义 。 


3 ”中科院 计算 所 的 少数 民族 语言 处 理 和 机 器 翻译 研究 进展 


我 们 中 科 院 计算 所 自然 语言 处 理 研究 组 专注 于 机 器 翻译 研究 20 余年 ， 曾 经 开发 过 基于 
规则 、 基 于 实例 和 基于 统计 的 机 器 翻译 系统 。 近 十 年 来 ， 研 究 组 在 基于 统计 的 机 器 翻译 研究 
和 应 用 方面 取得 了 较 大 的 进展 。 研 究 组 提出 了 一 系列 基于 源 语言 句法 分 析 的 统计 翻译 模型 ， 
在 本 领域 最 有 影响 的 国际 期 刊 《Computational Linguistics) 和 学 术 会 议 (ACL3，EMNLP?， 
COLING5) 上 发 表 相 关 论 文 50 余 篇 ， 申 请 技术 发 明 专利 18 项 ， 受 到 国内 外 同行 的 广泛 关 
注 和 跟踪 。 研 究 组 开发 的 机 器 翻译 系统 在 著名 国际 机 器 翻译 评测 NIST" 和 IWSLT 中 多 次 取 
得 好 成 绩 。 研 究 组 还 将 统计 机 器 翻译 技术 实际 应 用 到 了 专利 翻译 、 移 动 翻译 、 新 闻 翻 译 等 多 
个 领域 中 。 


近年 来 ， 我 们 组 开展 了 少数 民族 语言 和 周边 国家 语言 的 机 器 翻译 研究 。 在 少数 民族 语言 
方面 ,我 们 主要 关注 维吾尔 语 、 蒙 古语 、 藏 语 等 我 国 使 用 人 口 最 多 的 几 种 少数 民族 语言 。 我 
们 与 新 疆 大 学 、 内 蒙古 大 学 和 青海 师范 大 学 建立 了 紧密 的 合作 关系 。 经 过 几 年 的 努力 ,在 维 
吾 尔 语 、 蒙 古语 、 藏 语 处 理 以 及 它们 和 汉语 间 的 机 器 翻译 方面 取得 了 较 大 的 进展 。 我 们 收集 
加 工 了 较 大 规模 的 维 汉 、 蒙 汉 、 藏 汉 平 行 语料库 和 翻译 词典 ， 开发 了 一 系列 初步 实用 的 民族 
语言 处 理 基础 工具 ， 如 语种 识别 和 编码 转换 工具 、 维 语 形态 分 析 工 具 、 蒙 语 形态 分 析 工 具 、 
藏 语 断 句 /分 词 工 具 、 命 名 实体 识别 和 翻译 工具 等 ， 研 究 了 面向 形态 丰富 语言 的 翻译 模型 和 
资源 缺乏 语言 的 翻译 方法 ,搭建 了 维 汉 、 蒙 汉 和 藏 汉 统 计 机 器 翻译 系统 。 我们 开发 的 少数 民 
族 语 言 翻译 系统 已 经 在 国家 有 关 部 门 得 到 了 应 用 。 研 究 组 还 负责 组 织 了 全 国 机 器 翻译 研讨 会 
少数 民族 语言 机 器 翻译 评测 ， 为 推动 国内 少数 民族 语言 机 器 翻译 的 发 展 做 出 了 贡献 。 


本 节 将 介绍 我 们 在 少数 民族 语言 处 理 和 翻译 研究 方面 的 主要 进展 ,下 一 节 将 介绍 我 们 组 
织 全 国 机 器 翻译 研讨 会 少数 民族 语言 机 器 翻译 评测 的 情况 。 
3.1 维 、 蒙 、 藏 语言 处 理 基 础 技术 

语言 处 理 是 机 器 翻译 的 基础 。 无 论 是 对 于 机 器 翻译 本 身 ， 还 是 机 器 翻译 所 需要 的 话 料 库 
处 理 来 说 ， 基 本 的 语言 处 理 技术 都 是 不 可 或 缺 的 。 对 于 维 、 蒙 、 藏 语 的 处 理 ， 我 们 重点 解决 
了 语言 编码 、 形 态 分 析 、 分 词 和 命名 实体 的 识别 等 机 器 翻译 所 必需 的 基本 语言 处 理 技 术 。 下 
面 分 别 进行 简单 的 介绍 。 
- 编码 识别 和 转换 
维 语 、 蒙 语 、 藏 语 等 很 多 少数 民族 语言 都 存在 多 种 编码 形式 ， 如 藏 语 常 用 的 编码 除了 
Unicode 外 ， 还 有 班 智 达 、 华 光 、 同 源 、 又 布 扎 码 等 等 ， 为 了 对 这 些 语言 进行 处 理 ， 必 须 首 
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先进 行 编码 的 识别 和 转换 。 为 了 同时 支持 多 种 语言 文本 的 处 理 , 还 要 进行 语种 的 识别 。 由 于 
语种 和 编码 在 计算 机 内 部 表示 上 可 以 统一 看 成 是 编码 问题 ,我们 把 语种 识别 和 编码 识别 问题 
同时 考虑 , 采用 统一 的 模型 和 方法 进行 处 理 。 我 们 提出 了 一 种 通用 的 基于 统计 语言 模型 的 语 
种 和 编码 识别 方法 中。 首先 将 编码 粗 识别 为 三 类 字符 编码 系列 ， 然 后 结合 三 种 粒度 语言 模 
型 同时 实现 语种 和 编码 的 识别 。 该 方法 不 依赖 于 各 种 少数 民族 语言 特有 的 规则 , 便于 扩展 到 
新 的 语种 和 编码 。 系统 中 的 三 种 粒度 语言 模型 分 别 是 基于 字 节 的 语言 模型 、 基 于 字符 的 语言 
模型 以 及 基于 词 的 语言 模型 。 三 种 粒度 的 语言 模型 分 别 从 三 个 层面 区 分 语种 和 编码 , 能够 更 
好 地 完成 识别 任务 。 系 统 总 的 处 理 流程 如 图 1 所 示 。 


UNICODE 


系列 基于 语言 模型 | 
的 识别 | 
字 节 语言 模型 | | 


待 识 别 文本 编码 粗 分 类 


| 
= 语种 及 编码 
字符 语言 模型 
ASCII 系 列 证 
b=4 词语 言 模型 
-2 


图 1. 多 语种 文本 语种 和 编码 识别 系统 流程 图 


基于 该 方法 我 们 实现 了 一 个 语种 和 编码 识别 工具 ， 目 前 文 持 11 种 语言 及 其 主流 编码 ， 
包括 : 汉语 、 英 语 、 藏 语 、 维 语 、 蒙 语 、 阿 拉 伯 语 、 土 耳 其 语 、 俄 语 、 哈 萨 克 语 、 柯 尔 殉 玫 
语 、 日 语 ， 识 别 的 平均 准确 率 大 于 95%。 对 于 藏 语 、 维 语 、 蒙 语 主 流 编 码 的 转换 工具 也 已 


经 完成 。 
- ， 维 语 、 蒙 语 形态 分 析 


维 语 、 蒙 语 都 属于 形态 丰富 的 黏着 语 ， 词 语 通常 由 词 干 和 若干 词 绥 组 成 ， 形 态 分 析 的 任 
务 就 是 解析 出 词语 的 词 干 和 词缀 结构 ,并且 标定 出 它们 的 类 别 。 针 对 秋 着 语 的 构 词 特点 ,我 
们 设计 了 一 种 基于 图 状 结构 的 判别 式 模 型 。 该 模型 将 句子 的 形态 分 析 结 果 表 示 为 图 状 结构 ， 
并 通过 特征 设计 , 以 图 中 的 边 描述 词语 内 部 形态 成 分 之 间 以 及 分 属相 邻 词语 的 形态 成 分 之 间 
的 关联 约束 。 具 体 而 言 ， 在 图 状 模 型 中 ， 每 个 词语 内 部 各 词 干 和 词缀 之 间 都 存在 相应 的 边 ， 
对 应 相应 的 近 距 离 特 征 ; 分 属相 邻 词语 的 词 干 和 词缀 之 间 也 存在 相应 的 边 , 对 应 相应 的 远 距 
离 特征 。 这 两 类 特征 分 别 描述 了 词语 内 部 和 词语 之 间 各 形态 成 分 之 间 的 语言 学 关联 约束 关 
系 。 与 传统 的 线性 模型 、 图 状 模型 相 比 , 该 模型 更 好 地 考虑 了 各 形态 成 分 之 间 的 语言 学 关联 。 
实验 表明 ， 基 于 图 状 建 模 的 形态 分 析 与 线性 建 模 方式 相 比 ， 取 得 了 显著 的 性 能 提升 ,并且 显 
车 超越 了 前 人 的 相关 工作 。 

基于 图 状 模型 ， 我 们 已 经 实现 了 初步 实用 的 维 语 、 蒙 语 、 韩 语 形态 分 析 工 具 。 本 专辑 将 
另 有 文章 详细 介绍 该 工作 的 最 新 进展 。 相 关 工 作 也 可 以 参见 我 们 已 经 发 表 的 论文 光 六 。 

藏 语 分 词 

藏 语 的 构 词 模式 比 汉 语 要 复杂 得 多 。 我 们 根据 藏 文 的 构 字 和 构 词 特性 ， 有 机 结合 规则 方 
法 和 统计 方法 的 优点 , 构建 了 适合 藏 文 的 词语 切 分 模型 。 首 先 , 根据 藏 文 特有 的 构 词 规律 将 
句子 切 分 成 最 小 粒度 的 序列 ， 称 之 为 单元 序列 ; 然后 , 根据 感知 机 模型 提供 的 判别 式 分 类 的 
权重 ,在 单元 序列 上 进行 粗 切 分 ， 从 而 生成 有 向 图 ， 并 通过 查询 词典 为 有 向 图 的 边 赋 予 不 同 
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的 权重 ， 最 后 ， 通 过 动态 规划 算法 求解 加 权 有 向 图 中 的 最 短路 径 ， 生 成 最 终 分 词 结果 。 图 2 
给 出 了 藏 文 分 词 系统 的 工作 流程 。 


切 分 最 
小 粒度 


分 词 结果 


图 2. 藏 语 分 词 系统 流程 图 


实验 证 明 , 基于 判别 式 模 型 和 词 图 重 排 序 技术 的 藏 文 词语 切 分 模型 较 之 前 人 最 好 的 工作 
有 了 显著 进步 9。 基 于 该 方法 实现 的 藏 文 分 词 工具 已 经 实际 用 于 我 们 的 藏 汉 机 器 翻译 系统 
中 ， 取 得 了 很 好 的 效果 。 本 专辑 将 另 有 文章 对 该 工作 进行 详细 的 介绍 。 


- ”命名 实体 识别 和 翻译 


命名 实体 的 识别 是 语言 分 析 的 重要 环节 。 时 间 词 、 数 词 、 人 名 、 地 名 和 机 构 名 等 命名 实 
体 的 正确 识别 ， 对 自然 语言 处 理 后 续 阶 段 ， 如 名 法 分 析 和 机 器 翻译 都 大 有 助 益 。 尽 管 汉语 和 
英语 命名 实体 识别 技术 已 经 比较 成 熟 ， 但 是 由 于 维 语 、 蒙 语 、 藏 语 自身 复杂 的 语言 特点 ， 不 
能 简单 套用 现成 的 理论 模型 和 方法 。 比 如 说 , 维 语 的 命名 实体 可 级 接 复杂 的 后 级 ， 这 使 得 维 
语 的 命名 实体 识别 和 形态 分 析 任 务 密 不 可 分 , 必须 进行 特殊 的 处 理 。 对 于 时 间 词 和 数 词 的 识 
别 和 翻译 ,由 于 各 个 语种 都 具有 较 强 的 规律 性 , 我 们 采用 了 人 工 语言 学 规则 加 双语 词典 的 模 
式 进行 处 理 。 对 于 人 名 、 地 名 、 机 构 名 等 实体 的 识别 和 翻译 ,我 们 希望 能 够 建立 一 个 通用 的 
多 语种 命名 实体 识别 和 翻译 框架 。 在 核心 算法 上 采用 与 具体 语言 无 关 的 统计 方法 , 同时 结合 
规则 方法 对 具体 的 语言 现象 进行 专门 处 理 。 我 们 提出 了 规则 知识 和 统计 建 模 相 结合 的 命名 实 
体 识别 系统 框架 ， 以 期 既 充 分 利用 统计 模型 稳定 性 好 、 精 度 高 和 语言 无 关 的 优势 ， 又 能 充分 
考虑 各 个 语种 特有 的 词法 和 句法 规律 ， 以 取得 更 好 的 命名 实体 识别 精度 。 


目前 我 们 已 经 实现 了 维 语 、 蒙 语 、 藏 语 的 数 词 、 时 间 词 识别 ， 构 建 了 翻译 工具 ， 达 到 了 
较 高 的 识别 和 翻译 准确 率 , 有 效 提 高 了 翻译 质量 。 基 于 判别 式 统计 模型 的 命名 实体 识别 引擎 
也 已 经 开发 完成 ， 还 需 进 一 步 扩 大 维 语 、 蒙 语 和 藏 语 命名 实体 标注 语料库 ， 以 及 命名 实体 翻 
译 词 典 的 规模 。 


3.2 形态 丰富 语言 的 分 析 和 翻译 建 模 


形态 丰富 语言 包括 黏着 语 〈 如 芬兰 语 、 日 语 、 韩 语 等 ) 和 部 分 形态 变化 比较 复杂 的 屈折 
语 ( 如 德语 、 法 语 、 阿 拉 伯 语 、 俄 语 等 )。 我 国 的 很 多 少数 民族 语言 ， 如 维吾尔 语 、 蒙 古语 、 
哈萨克 语 、 朝 鲜 语 等 都 属于 形态 丰富 语言 。 形 态 丰 富 语言 每 个 词 的 变化 形式 最 多 可 达 数 百 种 ， 
至 上 千 种 。 而 目前 机 器 翻译 研究 界 关 注 最 多 的 汉语 和 英语 都 属于 形态 变化 比较 简单 的 语 
言 。 汉 语 基本 上 没有 形态 变化 ， 英 语 形态 最 丰富 的 动词 也 只 有 四 、 五 种 变化 形式 。 现 有 主流 
的 机 器 翻译 方法 基本 上 不 考虑 词 形变 化 , 把 每 个 不 同 词 形 的 词 都 当成 独立 的 词语 来 考虑 。 但 
是 对 于 形态 丰富 的 语言 , 这 种 做 法 就 会 带 来 比较 严重 的 数据 稀疏 问题 , 会 导致 翻译 时 出 现 大 
量 的 未 登录 词 ， 严重 影响 机 器 翻译 的 性 能 。 除 了 形态 变化 丰富 以 外 ， 形态 丰富 语言 中 的 很 多 
句法 特性 (如 时 态 、 语 态 、 人 称 、 数 等 ) 也 都 是 通过 动词 的 形态 来 表达 的 ， 而 在 形态 简单 的 
汉语 或 英语 中 , 这 些 句 法 特性 大 部 分 都 通过 特定 的 词语 来 表达 。 这 就 导致 这 两 类 语言 的 句法 
同 构 性 非常 差 , 而 现 有 的 机 器 翻译 模型 对 于 这 种 结构 差异 较 大 的 语言 之 间 的 翻译 效果 都 不 理 
想 。 
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为 了 能 够 很 好 地 实现 形态 丰富 语言 和 简单 形态 语言 之 间 的 机 器 翻译 ， 必须 在 语言 的 更 深 


层次 上 实现 两 种 语言 的 映射 ,使 得 翻译 模型 能 够 充分 把 握 形态 丰富 语言 的 特性 及 其 与 汉语 之 


目前 常见 的 词语 表示 形式 有 两 种 : 一 种 是 把 完整 的 词 表 示 成 一 个 独立 的 单位 。 由 于 形态 
语言 中 有 些 词 的 变化 形式 有 数 百 其 至 上 二 种 之 多 , 这 种 词语 表示 形式 会 在 机 器 翻译 中 造 


闻 的 互 译 对 应 规律 。 
成 出 
式 


观 大 量 未 登录 词 的 严重 问题 。 另 外 一 种 表示 方法 是 将 完整 的 词 切 分 成 词 干 加 多 个 词组 形 
式 , 每 个 词 干 和 词缀 作为 一 个 独立 的 单位 。 这 样 虽然 减轻 了 未 登录 词 问 题 , 但 会 使 词 干 之 间 


距离 变 得 比较 远 ， 大 大 前 弱 统 计 模 型 的 有 效 性 。 其 实 , 词语 的 词 干 、 词 级 表示 形式 是 可 以 非 


常 灵活 的 。 例 如 图 3 


中 的 多 粒度 的 线性 词语 表示 形式 , 以 及 图 4 中 基于 图 的 词语 表示 形式 等 。 


图 中 A 表示 词 干 ，B 表示 词 级 。 


(b) 
图 4。 基于 图 的 词语 表示 形式 


不 同 的 词语 表示 形式 对 于 词法 分 析 、 词语 对 齐 、 机 器 翻译 的 建 模 和 算法 都 有 一 定 的 影响 。 


我 们 希望 对 各 种 形式 的 词语 表示 形式 进行 深入 的 研究 , 以 探讨 机 器 翻译 最 合理 的 表示 形式 以 


及 相应 的 词语 对 齐 、 


于 图 状 结构 的 形态 丰富 语言 形态 分 析 模型 ， 在 维 语 、 蒙 语 和 韩语 的 形态 分 析 上 取得 了 很 好 的 
分 析 效果 9 约 。 在 形态 丰富 语言 的 翻译 建 模 方面 ， 我 们 通过 多 种 粒度 表示 ， 区 别 对 待 词 二 、 
词 级 等 方式 来 改善 形态 丰富 语言 到 汉语 的 翻译 质量 ,在 维吾尔 语 、 哈萨克 语 和 柯尔克孜 语 上 


翻译 模型 和 算法 。 基 于 图 4 (a) 的 图 状 词语 表示 形式 ， 我 们 实现 了 基 


都 取得 了 显著 的 效果 路 。 本 专辑 将 男 有 文章 详细 介绍 这 方面 的 工作 。 
3.3 资源 缺乏 语言 的 知识 获取 和 翻译 技术 

语言 资源 缺乏 是 构建 少数 民族 语言 到 汉语 翻译 系统 所 面临 的 主要 问题 。 目 前 的 统计 机 器 
翻译 方法 是 建立 在 大 规模 双语 平行 语料库 的 基础 上 。 如 果 没 有 大 规模 双语 语料库 , 统计 机 器 
翻译 方法 的 优势 ， 如 开发 成 本 低 、 周 期 短 等 ， 就 都 不 存在 了 。 但 是 对 于 大 部 分 语言 对 来 说 ， 
大 规模 的 双语 平行 语料库 的 获取 并 不 容易 ,我 国 少 数 民族 语言 资源 建设 虽然 近年 来 得 到 广泛 


关注 和 发 展 , 但 是 可 以 收集 到 的 双语 平行 语 料 资源 都 很 有 限 。 另 一 方面 , 我 国 少 数 民族 民族 
语言 的 自然 语言 处 理 基 础 相对 比较 薄弱 , 缺乏 既 熟 悉 少 数 民族 语言 叉 精通 基于 规则 的 机 器 翻 


译 方法 的 专家 ， 基 于 规则 的 翻译 系统 更 难 实现 和 维护 。 因 此 ， 对 于 资源 缺乏 的 少数 民族 语言 


A 


中 科 院 计算 所 的 少数 民族 语言 机 器 翻译 研究 进展 


来 说 , 单纯 的 统计 方法 或 规则 方法 都 可 能 很 难 取得 理想 的 效果 。 最 大 程度 地 利用 各 种 形式 的 
语言 资源 和 人 力 资源 实现 快速 的 知识 和 资源 获取 , 同时 有 效 融 合 多 种 翻译 策略 以 提高 机 器 翻 
译 系统 的 性 能 ， 是 解决 资源 缺乏 语言 的 知识 获取 和 翻译 问题 的 有 效 途径 。 


针对 语言 资源 缺乏 问题 ， 我 们 希望 通过 人 机 交互 的 方式 ， 确 定 现 有 的 机 器 翻译 系统 的 知 
识 盲点 ， 有 针对 性 地 引入 人 类 专家 的 经 验 知识 ， 与 机 器 自动 学 习 的 过 程 紧 密 结合 ， 从 而 加 快 
学 习 的 进度 , 更 有 效 地 综合 利用 人 类 专家 知识 与 机 器 统计 学 习 的 能 力 , 来 改善 机 器 翻译 的 效 
果 。 我 们 已 经 尝试 将 人 类 专家 撰写 的 规则 融入 到 统计 翻译 系统 中 , 用 以 解决 长 距离 调 序 和 句 
子 骨干 翻译 问题 ， 取 得 了 较 好 的 效果 中 。 此 外 ， 我 们 对 多 粒度 融合 的 词汇 对 齐 策 略 "H， 基 
于 双语 映射 的 无 监督 少数 民族 语言 句法 分 析 知 识 获 取 策略 中 等 进行 了 研究 。 这 些 工作 部 分 
缓解 了 语言 资源 缺乏 的 困难 , 取得 了 一 定 的 效果 。 语言 资源 缺乏 的 为 一 种 情况 是 领域 资源 的 
缺乏 。 应 对 这 种 情况 需要 解决 机 器 模型 的 领域 自 适应 问题 。 这 方面 我 们 也 已 经 开展 了 一 些 工 
作 ， 但 是 目前 效果 还 不 够 理想 。 


基于 以 上 研究 , 我 们 开发 了 一 系列 初步 实用 的 少数 民族 语言 处 理 基 础 工具 , 搭建 了 维 汉 、 
蒙 汉 和 藏 汉 统 计 机 器 翻译 系统 ,目前 我 们 的 少数 民族 语言 翻译 系统 已 经 在 国家 有 关 部 门 得 到 
了 应 用 , 得 到 了 用 户 的 好 评 。 除 少数 民族 语言 外 , 研究 组 还 实现 了 韩语 、 日 语 、 泰 语 、 俄语 、 
阿拉 伯 语 、 越 南 语 到 汉语 的 机 器 翻译 原型 系统 ， 在 韩语 形态 分 析 、 日 语 分词 ， 泰语 分 词 方 面 
也 取得 了 一 定 的 进展 。 


4 ”少数 民族 语言 机 器 翻译 评测 


全 国 机 器 翻译 研讨 会 (China Workshop on Machine Translation, CWMT) 由 中 科 院 自动 化 
所 、 计 算 所 和 厦门 大 学 于 2005 年 联合 发 起 *， 骨 在 推动 中 国 机 器 翻译 研究 的 发 展 ， 促 进 国 内 
外 同行 的 交流 。 研 讨 会 从 2007 年 开始 举办 机 器 翻译 评测 活动 (简称 CWMT 机 器 翻译 评测 )， 
目的 是 更 加 有 效 地 推进 研究 单位 间 实 质 性 的 交流 、 促进 机 器 翻译 技术 的 发 展 。 中 科 院 计算 所 
自然 语言 处 理 研究 组 负责 了 机 器 翻译 评测 活动 的 组 织 工 作 。2011 年 ， 在 研究 组 的 倡导 下 ， 
第 七 届 全 国 机 器 翻译 研讨 会 (CWMT 2011) 机 器 翻译 评测 首次 引入 了 少数 民族 语言 到 汉语 
的 翻译 评测 项 目 ， 进 行 了 包括 维 语 、 蒙 语 、 藏 语 、 哈 萨 克 语 以 及 柯尔克孜 语 五 种 民族 语言 到 
汉语 的 翻译 评测 任务 。2013 年 即将 举办 的 第 九 届 全 国 机 器 翻译 研讨 会 ”CCWMT 2013 ) 机 器 
翻译 评测 将 继续 举办 维 汉 、 蒙 汉 、 藏 汉 三 个 民族 语言 项 目的 评测 。 表 1 和 表 2 分 别 给 出 了 这 
两 次 机 器 翻译 评测 的 项 目 设 置 情况 。 其 中 灰色 背景 的 为 少数 民族 语言 翻译 评测 项 目 。 评 测 组 
织 方 中 科 院 计算 所 联合 各 少数 民族 院 校 为 参评 单位 提供 了 训练 语 料 。 表 3 给 出 了 这 两 次 评测 
中 少数 民族 语言 评测 项 目 提供 的 训练 语 料 规模 ， 以 及 语 料 提 供 单 位 。 


CWMT 2011 和 CWMT 2013 少数 民族 语言 机 器 翻译 评测 吸引 了 包括 中 科 院 计算 所 、 自 
动 化 所 、 新 疆 理 化 所 、 哈 尔 滨 工业 大 学 、 东 北大 学 等 共 14 家 单位 参加 。CWMT 2013 评测 
中 我 们 还 联合 中 科 院 自动 化 所 、 厦 门 大 学 分 别 为 蒙 汉 、 维 汉 、 藏 汉 评 测 项 目 提 供 基 线 系统 
(Baselinej， 包 括 训练 、 解 码 全 过 程 的 源码 和 相关 工具 。 少 数 民 族 语 言 机 器 翻译 评测 给 国内 
从 事 机 器 翻译 的 研究 单位 和 从 事 少数 民族 语言 信息 处 理 的 单位 提供 了 合作 和 交流 平台 , 这 必 
将 进一步 促进 少数 民族 语言 机 器 翻译 研究 和 应 用 水 平 的 提高 。 我 们 期 待 着 更 多 的 研究 团队 能 
参加 到 这 个 评测 中 来 。 


8 最 初 三 届 研 讨 会 的 名 称 为 “全 国 统计 机 器 翻译 研讨 会 ” 从 2008 年 起 更 名 为 “全 国 机 器 翻译 研讨 会 ” 
9 http://www.liip.cn/CWMT2013/ 
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表 1. CWMT 2011 机 器 翻译 评测 项 目 
评测 项 目 名 称 语种 

汉 贡 新 闻 领 域 机 器 翻 汉语 ?英语 
英汉 新 闻 领 域 机 器 番 英语 >》 汉语 
英汉 科技 领域 机 器 番 英语 > 汉语 
日 汉 新 闻 领 域 机 器 媳 日 语 访 汉语 
蒙 汉 日 常用 语 机 器 翻 记 蒙 语 > 汉 语 
藏 汉 政 府 文献 机 器 翻 记 藏 语 访 汉语 
维 汉 新 闻 领 域 机 器 翻 记 维 语 > 汉 语 新 闻 领 域 
哈 汉 新 闻 领 域 机 器 翻 记 哈萨克 语 > 汉 语 新 闻 领 域 
何 汉 新 闻 领 域 机 器 翻 训 柯尔克孜 语 访 汉语 新 闻 领 域 


序号 
1 
2 
3 
4 
5 
6 
7 
8 
9 


表 2. CWMT 2013 机 器 翻译 评测 项 EE 

评测 项 目 名 称 语种 领域 
汉 英 新 闻 领 域 机 器 翻 i 汉语 ?英语 新 闻 领 域 
英汉 新 闻 领 域 机 器 翻 i 英语 > 汉语 新 闻 领 域 
英汉 科技 人 § 逢 |i 英语 > 汉语 科技 领域 
蒙 汉 日 常用 语 机 器 翻 i 蒙古 语 之 汉语 日 常用 语 
藏 汉 政 府 文献 机 器 翻 藏 语 之 汉语 政府 文献 
维 汉 新 闻 领 域 机 器 翻 维吾尔 语 户 汉语 新 闻 领 域 


| 


上 


基 映 
一 一 一 
名 
久 


表 3， 少数 民族 语言 评测 项 目 训练 语 料 情 况 
评测 项 目 CWMT 2011 CWMT 2013 语 料 提供 单位 

5 万 句 对 11 万 句 对 新 疆 大 学 
(1,091,903 维 语词 ) | (1912,542 维 语词 ) PF 科 院 新 疆 理化 所 

6 万 句 对 10.7 万 句 对 内 蒙古 大 学 
(982,135 蒙 语词 ) | (2,251,117 蒙 语 词 ) 科 院 合肥 智能 所 

10 万 句 对 12.6 万 句 对 青海 师范 大 学 ， 厦 门 大 学 ， 
(1,280,837 藏 语 词 ) | (1391,752 藏 语词 ) | 西北 民族 大 学 ， 西 藏 大 学 
5 万 句 对 i 
哈萨克 语 > 汉语 | (965.570 哈 语词 ) 2 ee 
5 万 句 对 风 


柯尔克孜 语 汉语 本 新 疆 大 学 
柯 尔 克 执 i 汉 i [1,175,823 柯 语词 ) 折 疆 大 学 


维吾尔 语 > 汉语 


蒙古 语 > 汉语 


藏 语 > 汉语 


5 总结 与 展望 


近 几 年 来 中 科 院 计算 所 自然 语言 处 理 研究 组 在 少数 民族 语言 处 理 和 机 器 翻译 方面 做 了 
不 少 工作 , 取得 了 一 定 进展 。 本 文 对 相关 工作 做 了 一 个 概况 性 的 说 明 , 一 些 细节 在 本 专辑 的 
其 他 文章 中 有 更 详细 的 介绍 。 今 后, 我 们 将 进一步 扩大 少数 民族 语言 翻译 资源 的 规模 ,研究 
适合 少数 民族 语言 和 汉语 间 机 器 翻译 的 关键 技术 和 方法 , 希望 能 够 显著 提高 维吾尔 语 、 蒙古 
语 、 藏 语 等 主要 少数 民族 语言 与 汉语 之 间 的 自动 翻译 水 平 , 推进 少数 民族 语言 处 理 技术 的 发 
展 和 机 器 翻译 系统 的 实用 化 。 我 们 也 将 继续 开展 少数 民族 语言 机 器 翻译 评测 活动 , 希望 少数 
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